语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
人类语言学习者暴露于信息丰富的上下文敏感语言,但要大量的原始感觉数据。通过社会语言的使用和彩排和实践的内部过程,语言学习者能够建立高级的语义表示,以解释他们的看法。在这里,我们从人类中的“内在语音”过程中汲取灵感(Vygotsky,1934年),以更好地理解代理内语言在体现行为中的作用。首先,我们正式地将代理语音作为半监督问题,并开发了两种算法,这些算法能够以很少的标记语言数据进行视觉接地字幕。然后,我们通过实验计算不同量的标记数据的缩放曲线,并将数据效率与监督学习基线进行比较。最后,我们将演讲内部的语音纳入3D虚拟世界中运行的体现的移动操纵剂代理,并表明,只需多达150个附加图像标题,代理语音就可以操纵和回答有关的问题。一个没有任何相关任务经验的新对象(零射)。综上所述,我们的实验表明,对代理内部的语音进行建模有效,可以使体现的代理有效地学习新任务,而无需直接互动经验。
translated by 谷歌翻译
创建可以自然与人类互动的代理是人工智能(AI)研究中的共同目标。但是,评估这些互动是具有挑战性的:收集在线人类代理相互作用缓慢而昂贵,但更快的代理指标通常与交互式评估相关。在本文中,我们评估了这些现有评估指标的优点,并提出了一种新颖的评估方法,称为标准化测试套件(STS)。 STS使用从真实人类交互数据中挖掘出的行为方案。代理商请参阅重播方案上下文,接收指令,然后将控制权控制以脱机完成交互。记录这些代理的延续并将其发送给人类注释者以将其标记为成功或失败,并且根据其成功的连续性比例对代理进行排名。最终的ST是自然主义相互作用的快速,控制,可解释的和代表的。总的来说,STS巩固了我们许多标准评估指标中所需的许多值,从而使我们能够加速研究进展,以生产可以自然与人类互动的代理。可以在https://youtu.be/yr1tnggorgq上找到视频。
translated by 谷歌翻译
It would be useful for machines to use computers as humans do so that they can aid us in everyday tasks. This is a setting in which there is also the potential to leverage large-scale expert demonstrations and human judgements of interactive behaviour, which are two ingredients that have driven much recent success in AI. Here we investigate the setting of computer control using keyboard and mouse, with goals specified via natural language. Instead of focusing on hand-designed curricula and specialized action spaces, we focus on developing a scalable method centered on reinforcement learning combined with behavioural priors informed by actual human-computer interactions. We achieve state-of-the-art and human-level mean performance across all tasks within the MiniWob++ benchmark, a challenging suite of computer control problems, and find strong evidence of cross-task transfer. These results demonstrate the usefulness of a unified human-agent interface when training machines to use computers. Altogether our results suggest a formula for achieving competency beyond MiniWob++ and towards controlling computers, in general, as a human would.
translated by 谷歌翻译
来自科幻小说的普通愿景是机器人将有一天居住在我们的物理空间中,感知世界,才能协助我们的物理劳动力,并通过自然语言与我们沟通。在这里,我们研究如何使用虚拟环境的简化设计如何与人类自然交互的人工代理。我们表明,与自我监督学习的模拟世界中的人类交互的模仿学习足以产生我们称之为MIA的多模式互动剂,这成功与非对抗人类互动75%的时间。我们进一步确定了提高性能的架构和算法技术,例如分层动作选择。完全,我们的结果表明,模仿多模态,实时人类行为可以提供具有丰富的行为的富含性的令人生意的和令人惊讶的有效手段,然后可以为特定目的进行微调,从而铺设基础用于培训互动机器人或数字助理的能力。可以在https://youtu.be/zfgrif7my找到MIA的行为的视频
translated by 谷歌翻译
解释在人类学习中发挥着相当大的作用,特别是在仍然在形成抽象的主要挑战,以及了解世界的关系和因果结构的地区。在这里,我们探索强化学习代理人是否同样可以从解释中受益。我们概述了一系列关系任务,涉及选择一个在一个集合中奇数一个的对象(即,沿许多可能的特征尺寸之一的唯一)。奇数一张任务要求代理在一组对象中的多维关系上推理。我们展示了代理商不会仅从奖励中学习这些任务,但是当它们也培训以生成语言解释对象属性或选择正确或不正确时,实现> 90%的性能。在进一步的实验中,我们展示了预测的解释如何使代理能够从模糊,因果困难的训练中适当地推广,甚至可以学习执行实验干预以识别因果结构。我们表明解释有助于克服代理人来解决简单特征的趋势,并探讨解释的哪些方面使它们成为最有益的。我们的结果表明,从解释中学习是一种强大的原则,可以为培训更强大和一般机器学习系统提供有希望的道路。
translated by 谷歌翻译
Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Our work shows how a deep learning architecture equipped with an RN module can implicitly discover and learn to reason about entities and their relations.
translated by 谷歌翻译
我们将数字化量子退火(QA)和量子近似优化算法(QAOA)应用于人工神经网络中监督学习的范式任务:二元切割的突触权优化。在与MaxCut常用的Qoaa应用程序方差,或对Quantum Spin-Chains接地状态准备,经典Hamiltonian的特征在于高度非局部多自旋相互作用。然而,我们为QAOA参数提供最佳顺利解决的证据,这些参数可在同一问题的典型实例之间转移,并且我们证明了Qaoa在传统Qa上的增强性能。我们还研究了QAOA优化景观几何形状在这个问题中的作用,表明QA中遇到的间隙闭合转变的不利影响也对我们实施QAOA实施的表现负面影响。
translated by 谷歌翻译
确定高精度和可扩展性的资产位置是市场上最多的调查技术之一。当需要抽取量级精度或需要在室内环境中运行时,基于卫星的定位系统(即GLONASS或GLILEO)提供的基于卫星的定位系统(即GLONASS或GALILEO)的准确性并不总是足够的。在处理室内定位系统时,可扩展性也是一种反复出现的问题。本文介绍了一种创新的UWB室内GPS,可以追踪任意数量的资产而不降低测量更新率。为了提高系统的准确性,研究了数学模型和不确定性源。结果突出了所提出的实施方式提供定位信息,其中最大误差低于20厘米。由于DTDOA传输机制,也解决了不需要从资产被跟踪的活动作用的可扩展性。
translated by 谷歌翻译
A Digital Twin (DT) is a simulation of a physical system that provides information to make decisions that add economic, social or commercial value. The behaviour of a physical system changes over time, a DT must therefore be continually updated with data from the physical systems to reflect its changing behaviour. For resource-constrained systems, updating a DT is non-trivial because of challenges such as on-board learning and the off-board data transfer. This paper presents a framework for updating data-driven DTs of resource-constrained systems geared towards system health monitoring. The proposed solution consists of: (1) an on-board system running a light-weight DT allowing the prioritisation and parsimonious transfer of data generated by the physical system; and (2) off-board robust updating of the DT and detection of anomalous behaviours. Two case studies are considered using a production gas turbine engine system to demonstrate the digital representation accuracy for real-world, time-varying physical systems.
translated by 谷歌翻译